Compression de structure XML pour la recherche d'information structurée

نویسنده

  • Michel Beigbeder
چکیده

RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les résultats d’expérimentations sur la collection Wikipedia utilisée dans les campagnes INEX 2006 et 2007 (5,8 giga-octet, 659 388 documents) en terme d’efficience en espace et en temps.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage d'ordonnancements en recherche d'information structurée

RÉSUMÉ. Nous présentons un modèle d’apprentissage pour la Recherche d’Information Structurée qui ajuste automatiquement ses paramètres grâce à un ensemble d’exemples étiquetés composé de requêtes et de jugements de pertinence sur un ensemble de parties de documents. Notre modèle améliore la performance d’un système de base de Recherche d’Information en optimisant un critère de coût d’ordonnance...

متن کامل

Recherche d'information structurée. Vers un modèle possibiliste pour la recherche d'information dans des documents structurés

In this paper, we are interested in Information Retrieval in structured document in XML. For this, we present a model for the structured information retrieval, based on the possibilistic networks. The document elements and elements terms relations are modelled by measures of possibility and necessity. In this model, the user's request starts a process of propagation to recover the documents or ...

متن کامل

Modèle de recherche d'information structurée basé sur la relaxation de requêtes

RÉSUMÉ. Cet article présente un modèle pour la recherche d’information sur des documents XML basée sur la comparaison d’arbres, en utilisant le principe de relaxation de requêtes. Les requêtes et les documents sont représentés par des arbres étendus. Un arbre étendu est construit à partir de l’arbre original, avec la pondération des liens virtuels entre chaque nœud et ses descendants indirects,...

متن کامل

Recherche approchée d'information dans une base de documents semi-structurés

RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...

متن کامل

Vers une stratégie de recherche d'information structurée basée sur lacomparaison d'arbres

This paper presents a statistical approach to tree to tree correction adapted to structural information retrieval. It consits on indexing content and structure and use the both index in an information retrieval process. Retrieval process uses extended document and query structures and returns some fragments that follow the content and structure of the original query. MOTS-CLÉS : recherche d’inf...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008